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Résumé Partant du codage arithmétique prédictif adaptatif et utilisant le principe du Mi- 
nimum Description Length, nous arrivons à un outil efficace pour la sélection de modèles : 
le critère d'information RIC. Nous présentons ensuite une extension de ces techniques de 
codage à l'estimation non-paramétrique d'une distribution et l'illustrons sur l'histogramme 
des niveaux de gris d'une image. 
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1 Introduction 

in 

O 

^ | Le codage arithmétique, présenté par Rissanen [7], est optimal en terme d'entropie. Une 

version simple de ce codage, pour laquelle nous renvoyons à [6], est utilisée dans JPEG2000 
où plusieurs modèles de référence sont utilisés. Nous présentons en partie [2] une version 
prédictive et adaptative, utilisée notamment dans le codeur d'images médicales CALIC, 
qui est un outil efficace pour la sélection de modèles. Sa longueur entre en effet dans le 
cadre plus général des critères d'information ou d'entropie pénalisée, introduits par exemple 
dans |1|10| et dont les domaines d'applications sont nombreux dès qu'il s'agit de décrire 
de manière optimale une distribution, citons |2|4j . Nous présentons aussi en partie [4] une 
procédure de sélection de la partition, non nécessairement régulière, d'un histogramme, 
basée sur ces techniques de codage. Elle fait suite à la méthode proposée dans [9] et entre 
dans le cadre général des méthodes proposées dans [3] pour la sélection d'un histogramme. 

2 Codage entropique et arithmétique prédictif adaptatif 

2.1 Codage entropique 

Soit E un ensemble de m symboles. Un code binaire sur E est une application injective 
C : E — > Uj e N*{0, 1}*. La longueur de C(x) est notée L(x). Si L vérifie l'inégalité de 
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Kraft, voir par exemple [5], on sait qu'elle est la longueur d'un certain code qui satisfait 
la condition du préfixe, indispensable au décodage. Prenant P une probabilité sur E et 
L = \— logP], où log est le logarithme à base 2, L vérifie cette inégalité et est donc la 
longueur d'un code que nous confondrons avec P. Ainsi, si P(x) est grand, L(x) est faible. 

Rappelons l'inégalité de convexité de Jensen : si P et Q sont deux probabilités sur E, 
en notant E p l'espérance sous P, on a : 

H{P) := E P {- log P] < E p [— log Q] =: H(P, Q) (1) 

Sur des données provenant de P inconnue, l'objectif est donc de trouver un codage Q 
dont l'entropie croisée H(P,Q) se rapproche de H(P). A cet effet, le codage de Huffman 
est optimal. Cependant le codage arithmétique donne de meilleurs résultats en traitant 
plusieurs symboles simultanément. 



2.2 Chaînes de Markov multiples 

Les Chaînes de Markov Multiples (CMM) sont le cadre naturel du codage arithmétique. 
Un processus (X n ) n ^* à valeurs dans E est une CMM d'ordre k G N si k est le plus petit 
entier vérifiant l'égalité P(A n |A n _i, . . . , Xq) = P(X n \ X n _i, . . . , A n _fc) pour tout n. Nous 
nous placerons toujours dans le cas où cette loi conditionnelle ne dépend pas de n ; la 
chaîne est alors dite homogène. Une CMM d'ordre est une suite de variables aléatoires 
indépendantes. 

Prenons les k premières variables d'une CMM d'ordre k indépendantes et de distribu- 
tion uniforme sur E. Notons iG^un état, j G E k un état composé et 9(i\j) la probabilité 
de voir apparaitre i après j. La donnée des (m — l)m k réels 0(i\j), pour j G E k i par- 
courant m — 1 états de E, suffit à décrire l'évolution de X. Pour 9 un tel paramètre et 
x n = xi,...,x n une chaîne d'éléments de E, la vraisemblance de x n relativement à 9 
s'écrit : 

n nw) n(<w 

avec n(i\j) le nombre d'occurences de i après j dans x n . 



2.3 Codage arithmétique prédictif adaptatif 

Soit l'intervalle courant I c = [0, 1[. Soit à coder x n G E n à l'ordre k choisi au préalable, 
on procède par itération. Pour t > posons x l = x±,...,xt et supposons traités les t 
premiers symboles, t > ; t = signifiant que le codage n'a pas encore commencé. Pour 
traiter le (t + 1)— ième, on actualise les probabilités de transitions comme suit : 

n ' ' \3 ) + m 
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où i G E, j G E k , n®(i\j) et n^(j) sont les nombres d'occurences respectifs de i après j 
et de j dans x t ; n^'(j) ne devant pas compter une apparition de j à la fin de cette chaîne. 
On pose j = xt-k+i: ■ ■ ■ , %t l'état actuel et on découpe I c selon les probabilités 6^\i\j), un 
intervalle correspondant à. un état i de E. On choisit comme nouvel 7 C celui correspondant 
à x t+1 . 

Une fois le dernier symbole traité et notant I c = [a, b[, il existe deux nombres dyadiques 
de longueur [— log(6— a)] consécutifs dans I c . On prend pour code de x n la partie fraction- 
naire du plus grand de ces nombres. Pour illustration, prenons E = {a, b} et codons dans 
la tableCQla chaîne abaa à l'ordre k = 1. Puisque [~— log(7/24 — 1/4)] = 5, le code 01001 
convient car son prédécesseur est 01000 et 1/4 < 2~ 2 + 2' 5 < 7/24, 1/4 < 2 -2 < 7/24. 

Tab. 1. Codage arithmétique prédictif adaptatif de la chaîne abaa à l'ordre k = 1 



t 


x l 


le 




Découpage 








[0,1) 


(o|a) = 1/2 
(o|6) = 1/2 


[0,i,l) 
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(o|a) = 1/2 
(o|6) = 1/2 
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(a|a) = 1/3 
(a\b) = 1/2 
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(a\a) = 1/3 
(a|6) = 2/3 
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U> 24 > 







Remarque : lors de ce codage, nous apprenons les régularités d'ordre k de la chaîne 
à mesure que nous la découvrons. Par conséquent, plus la chaîne est régulière à cet ordre, 
plus nous choisirons les grands intervalles et plus la longueur de codage sera faible. 

3 Sélection de modèles par Minimum Description Length (MDL) 

Considérons le problème de sélection de modèles suivant : étant donné une chaîne x n , 
sélectionner l'ordre k d'une CMM dont x n serait une réalisation. 

Pour k G N, notons 0k le modèle des CMM d'ordre k et la réunion des 0k- Le 
nombre de composantes libres d'un paramètre 6 G 0k est noté \0f.\ = (m — l)m k . Appelons 
complexité stochastique de x n relativement au modèle 0k la longueur du code arithmétique 
de x n à l'ordre k, notée Ck(x n ). Suivant la remarque du paragraphe précédent, si x 11 est 
une réalisation d'une CMM d'ordre k*, alors k* minimise Ck(x n ), et donc son espérance. 
Le MDL préconise donc de choisir pour k l'ordre minimisant Ck(x n ) ou E [Ck(x n )]. 

3.1 Estimation de la complexité stochastique 

Le calcul des Ck(x n ) étant complexe, Rissanen effectue dans [8] une étude détaillée de 
E[Cfc(a; n )] dont le résultat essentiel est : pour k G N, e > 0, presque-tout 6k G 0k et n 
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assez grand on a : 



niT(0 fc ) + (l-e)^logn<E fljt [C k (x n )\ < nH(6 k ) + logn + o(logn). (3) 

Il est intéressant de noter que l'inégalité de gauche est un raffinement de l'inégalité 
d'information de Shannon (pQ) : sur des données provenant de 9 k inconnu, le codage adaptatif 
à l'ordre k donne en moyenne un nombre de bits par symbole, E g k [Ck(x n )]/n, plus élevé 
que H(6k) + |0fc|logn/2n. Le terme |0fcjlogn/2n apparait ainsi comme une obstruction 
empêchant l'entropie du codage adaptatif de se rapprocher de l'entropie théorique H(6k)- 

A partir de x n , nous estimons H(6k) par — 1/n log P(x n \6k), où 6k est l'estimateur 
au sens du maximum de vraisemblance de 6k au sein du modèle 0k- Les inégalités j3]) 
suggèrent d'estimer [Ck(x n )] par : 

RlC(x n , k) = - log P{x n \6 k ) + ^ log n, (4) 

et le principe du MDL répond alors au problème de sélection de modèles posé par le choix 
de k = Argmin{RIC(x n , k) | Jfe G N}. 

Ce critère RIC (Rissanen Information Criterion) prend la même forme que BIC (Baye- 
sian Information Criterion) proposé par Schwarz [TU] et étudié dans le cadre des CMM par 
Zhao et al. [HJ. 

On peut construire un codage arithmétique non-adaptatif, que nous appellerons simple, 
il est décrit dans [6]. Avec ce codage la chaîne x n est codée, à l'ordre k et avec le paramètre 
6k, en [~— log P(x n \6k)~\ bits. Ainsi, minimiser la longueur de ce codage revient simplement 
à maximiser la vraisemblance. En termes de critères d'information, c'est donc le fait de 
coder de manière adaptative qui crée la pénalité logn, permettant ainsi la sélection du 
bon modèle. Cela est illustré dans le paragraphe suivant. 



3.2 Comparaison des codages et critères sur simulation d'une CMM 

Nous générons une réalisation x n , n = 2000, d'une CMM d'ordre k* = 5 à 2 états. 
L'entropie du paramètre 6*5 utilisé est H{6§) = 0.527. Sur cette chaîne, pour k = 0, . . . , 7, 
nous effectuons le codage arithmétique simple à l'ordre k, le codage arithmétique adaptatif 
à l'ordre k, le calcul du maximum de vraisemblance MV(x n , k) = — log P(x n \6k) et le calcul 
de RIC(x n , k). Les résultats divisés par n sont donnés en figure UJ 

Les courbes de codage adaptatif et RIC présentent nettement un minimum en l'ordre 
recherché k* ; cela s'explique par la remarque du paragraphe 2.3. L'absence d'adaptivité 
du codage simple justifie la superposition des deux autres courbes et donc le phénomène 
de surparamétrisation observé : le critère MV préfère un ordre 7. 
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FiG. 1. Comparaison des différentes longueurs de codages et du critère étudié. 

4 Application à la description d'une distribution par histogramme 

Nous présentons ici une application du codage arithmétique adaptatif au cadre non- 
paramétrique de l'estimation de densité par histogramme. Soit une densité / inconnue sur 
/, x n un échantillon de cette distribution et 77 une partition de I à m intervalles (Ij)jeli,nîl ■ 

4.1 Le critère proposé 

Il s'appuie sur un codage sans perte des données x n , effectué à l'aide de il, que nous 
présentons ici. 

Pour i £ on note m € E = [l,m] le numéro de l'intervalle dans lequel tombe 

xi. Par indépendance des x^, le codage arithmétique adaptatif de y n à l'ordre k = sera le 
meilleur. Notons L(y n \II) la longueur de ce codage. A i fixé, nous pouvons retrouver le Xi 
correspondant à un yi en effectuant, à l'intérieur de l'intervalle I yi , un codage à longueur 
fixe log lyjr où l Vi est la longueur de I Vi et r la précision de la machine. La longueur du code 
nécessaire pour retrouver x n à partir de y n est alors L(x n \y n ) := Y^j=i n j^°%h ~ nlogr 
où rij est le nombre de xi tombant dans Ij. 

La longueur du code sans perte de x n est L(x n \II) := L(y n \II) + L(x n \y n ) . Il faut, pour 
décoder, connaitre la partition utilisée ; la longueur nécessaire à son codage étant faible 
devant L(x n |7T), nous l'omettons. Estimons L(y n \II) par RIC(y n ,0) ()4j et définissons le 
nouveau critère : 

1 m 

Crit(x n |i7) = RlC(y n ,0) + L(x n \y n ) = - log P(y n \ê ) + 7 -^— log n + nj log lj - n log r 

2 3=1 

où 6o(j) = rij/n est estimé au sens du maximum de vraisemblance. Utilisant j2|) il vient 

m 

Crit (x 11 \II) = — nj log — j- H log n — n log r (5) 
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qui entre dans le cadre général des critères utilisés par exemple par Birgé [3] pour la 
sélection d'un histogramme. 

Le principe du MDL préconise de choisir pour partition celle qui minimise ce critère. 
Le nombre de partitions de ï étant trop élevé, on se restreint à la classe des sous-partitions 
d'une partition ilmax à R intervalles donnée. Nous utilisons la méthode de programmation 
dynamique proposée par Rissanen et al. [9] qui permet de trouver la sous-partition optimale 
de ilmax en cR 2 opérations seulement, où c est une constante. 



4.2 Exemples 

Pour une densité Laplacienne e~' a; '/2 (par exemple une distribution de coefficients AC 
de blocs DCT 8x8 dans JPEG), avec / = [—5,5] et II max la partition régulière de 
pas 2.10~ 2 , on obtient la partition présentée en figure El(a) ; la distribution théorique est 
également représentée. Sur l'histogramme des 256 niveaux de gris de l'image Léna, avec 
/ = [0,255], la partition choisie El (b) a 39 intervalles. Dans les deux cas, le critère choisit 
plus d'intervalles aux endroits où la densité présente de fortes variations. La reconstruction 
de l'image Léna sur les 39 niveaux de gris choisis est donnée en figure (3) (b). Elle présente 
un PSNR de 38,52 dB par rapport à l'image originale et est visuellement très acceptable. 




FlG. 2. Histogramme choisi sur une Laplacienne (a) et histogramme choisi sur l'image 
Léna en 39 classes (c) à partir de la distribution initiale en 256 classes (b). 



4.3 Conclusion 



Nous avons présenté, à partir du MDL, un procédé de description d'une distribution 
par un histogramme. L'obtention d'un tel histogramme à partir des données numériques 
peut-être exploitée dans un contexte de reconnaissance de formes. De plus, l'utilisation du 
critère présenté peut aussi être d'un intérêt certain dans la chaîne de codage source d'une 
image ou d'une vidéo. 
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(a) (b) 

FiG. 3. L'image originale (a) et l'image reconstruite (b) sur 39 niveaux pour un PSNR de 
38,52 dB. 
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